Baichuan3上榜金融基准测评:综合能力评级A, 金融知识评级A+
本测评结果仅用于学术研究。
4月24日,SuperCLUE团队发布金融大模型基准测评首批结果,引起了金融行业的广泛关注和热议。近期SuperCLUE团队已陆续开展第二批次金融基准测评,对国内通用大模型及金融垂直大模型进行,进行了全方位的金融能力测评。
体验地址:https://www.baichuan-ai.com/chat
评测模型:Baichuan3(小范围内测API)
评测集:SuperCLUE-Fin中文金融测评基准,包括六大金融领域相关应用场景、二十五项细分任务类型。
模型GenerationConfig配置:
repetition_penalty=1.05
temperature=0.3
top_k=5
top_p=0.85
max_new_tokens=2048
do_sample=1
本次测评为自动化评测,具体评测方案可查阅SuperCLUE-Fin中文金融测评基准。本次测评经过人工抽样校验。
其中第一梯队模型需满足条件:模型等级不低于A、基础能力等级与应用能力等级至少一项不低于A,即模型可以达到满足ToC及ToB的两种业务需求;
第二梯队模型需满足条件:模型等级不低于B、基础能力等级不低于B、应用能力等级不低于C,即模型可以基本满足ToC业务需求,但需提升ToB业务能力;
第三梯队模型即为等级为C或D的,需同时提升ToC与ToB两大业务需求的、具备发展潜力的模型。结论2:Baichuan3在金融知识百科能力上取得A+的最高评级,在金融数理计算、合规与风险管理、投顾应用三个能力上取得A评级同样表现出色。在金融理解认知和投研应用方面评级为B,还有一定优化空间。
以下是我们从定量和定性两个角度对模型进行的金融测评分析。
任务大类等级榜单
Baichuan3在金融基础能力上表现出色评级为A,在金融应用能力评级为B,还有一定优化空间。
各任务等级榜单Baichuan3在金融知识百科能力上表现不俗取得A+的最高评级,在金融数理计算、合规与风险管理、投顾应用三个能力上取得A评级同样表现出色。在金融理解认知和投研应用方面评级为B,还有一定优化空间,这也是国内其他大模型通用面临的问题,需要国内模型厂商后续做重点优化。
小结:
示例:金融知识百科
模型在两轮问题中均紧扣用户的提问,明确解释了“行权价”的定义,以及看涨期权和看跌期权两种策略的核心概念,满足了用户的基本目的和需求。回答语言清晰,逻辑结构条理,用户可以轻松理解。
示例:金融理解认知
模型简明扼要地总结了京仪装备在半导体专用设备领域的主要业务及市场位置,并准确提及了营收的增长和国产替代的趋势,展示了分析逻辑的专业性。
#测评申请
一、测评流程
1. 邮件申请
2. 意向沟通
3. 参测确认与协议流程
4. 提供测评API接口或大模型
5. 获得测评报告
二、申请测评地址
后续会持续更新专用金融大模型测评结果,欢迎金融模型研发机构申请报名。
邮件标题:SuperCLUE-Fin金融大模型测评申请,发送到contact@superclue.ai
请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式。
扩展阅读
[1] SuperCLUE-Fin: Graded Fine-Grained Analysis of Chinese LLMs on Diverse Financial Tasks and Applications, https://arxiv.org/abs/2404.19063
[2] SuperCLUE排行榜网站:www.superclue.com
[2] CLUE官网:www.CLUEBenchmarks.com
[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE-Fin